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Abstract 



(DE 4206567) 



The method includes the step of generating a number of 
sequences of programme parts pseudo-stochast ically , and 
evaluating them with reference to the processing or running 
time. A first sequence, giving the shortest time, is selected 
and then this first sequence is processed further and, pseudo- 
stochastically , two programme parts are exchanged and examined 
to see if the time has been shortened. When this is so, the 
changed sequence is further processed and compared with the 
processing of the original sequence. This procedure is 
continued until the most efficient conjunction of the parts 
has been found. 

USE/ ADVANTAGE - Suitable for data processing systems operating 
to cache principle. Programme parts can be bound into existing 
programme to result in minimum running time for new programme. 
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@ Verfahren zum Binden von Prog rammte Hen zu einem Programm 

(§7) Die in einem Programm enthaltenen Programmodule oder 
Programmteile werden so zu einem Programm gebunden, 
daS dessen Laufzeit auf einen nach dem Cache-Prinzip 
arbeitenden Rechner minimal ist. Dabei wird pseudozufalfig 
eine Mehrzahf von Reihenfolgen der Programmteile erzeugt 
und diese Reihenfolgen bezuglich der Laufzeit bewertet. Es 
wird die Reihenfolge der Programmfolge als aktuelle Rei- 
henfolge ausgewahlt, die das beste Bewertungsergebnis. 
also die geringste Laufzeit hat. Mit dieser aktuellen Reihen- 
folge der Programmteile wird weiter gearbeitet und dazu 
jeweits pseudozufallig zwei Programmteile der aktuellen 
Reihenfolge ausgewahlt und vertauscht und dann wiederum 
festgestellt, ob die durch Vertauschung entstandene neue 
Reihenfolge der Programmteile zu einem besseren Bewer- 
tungsergebnis fuhrt als die aktuelle Reihenfolge von Pro- 
grammteilen. Ist dies der Fall, dann wird die neue Reihenfol- 
■ ge zur aktuellen Reihenfolge, sonst wird mit der bisherigen 
l aktuetlen Reihenfolge durch erneute Vertauschung von zwei 
Programmteilen weitergefahren. Dieser Schritt wird solange 
B durchgefuhrt, bis ein vorgegebenes Abbruchkriterium erfutlt 
ist, der z. B. in einer vorgegebenen Anzahl von Vertauschun- 
gen liegen kann. 
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Beschreibung 

Die Anmeldung betrifft ein Verfahren zum Binden von Programmteilen zu einem Programm, das von einem 
nach dem Cache-Prinzip arbeitenden Rechner mit minimaler Laufzeit abgearbeitet werden kann. 
5 Cache-Speicher oder Cache gehoren zu den Standard-Speicher-Hierarchien, die die Architektur eines Rech- 
ners mitbestimmen. Ihre Funktion ist die eines Pufferspeichers zwischen einem Hauptspeicher und einem 
Prozessor. Der Cache als Pufferspeicher soli hierbei den schnellen Prozessor moglichst von dem langsamen 
Hauptspeicher entkoppeln. Der Cache besteht z. B. aus schnellen S-RAMS, die genau so schnell sind wie der 
Prozessor. Aufgrund ihres hohen Preises sind die Caches aber wesentlich kleiner als der Hauptspeicher. Spei- 
io cherhierarchien mit Cache sind bekannt und werden darum in ihrer Funktion nicht weiter erlautert 

Die Leistungsfahigkeit von Cache-Architekturen beruht auf dem Prinzip der Programm -Lokali tat, ohne die 
eine Speicher-Hierarchie aus Cache und Hauptspeicher keinen Leistungsgewinn bringen wurde. Bei der Pro- 
gramm-Lokalitat wird zwischen zeitlicher und raumlicher Lokalitat unterschieden. Zeitliche Lokalitat besagt, 
daB, wenn ein Datum adressiert wurde, es wahrscheinlich ist, daB es bald wieder adressiert wird. Raumliche 
15 Lokalitat besagt, daB, wenn ein Datum adressiert wurde, es wahrscheinlich ist, daB weitere Daten in seiner Nahe 
adressiert werden. 

Um Daten zwischen Hauptspeicher und Cache zu transportieren, werden der Hauptspeicher und der Cache in 
sog. Cache- Blocke unterteilt, die typisch 4 bis 128 Bytes enthalten konnen. Dabei konnen diese Daten sowohl 
Programmteile sein als auch Datenworte, die vom Programm bearbeitet werden. 

20 Es gibt Design-Moglichkeiten des Caches, die fur die Leistungsfahigkeit des gesamten Rechnersystems 
entscheidend sind. Weiterhin wird die Leistung des Cache aber auch von der verwendeten Software beeinflufiL 
Ein Cache hat seine maximale Leistung erreicht, wenn bei jedem Zugriff auf den Cache das angeforderte Datum 
im Cache vorhanden ist. Dieser Fall wird als Cache-Hit bezeichnet. Der Idealfall tritt jedoch immer nur 
kurzzeitig auf und wird durch Fehlzugriffe, sog. Cache-Misses, immer wieder unterbrochen, bei denen sich der 

25 Prozessor sich die benotigten Daten aus dem langsameren Hauptspeicher holen muB. 

Die Wirksamkeit eines Cache ist somit einerseits von der Fehlzugriffsrate (Miss-Rate) als auch von der 
Bearbeitungszeit fur einen Fehlzugriff abhangig. Die Bearbeitungszeit selbst ist von der Reaktionszeit des 
Hauptspeichers, der Cache-Block-GroBe und der Busbandbreite abhangig. Die Fehlzugriffsrate ist ebenfalls von 
der Cache- BIockgroBe abhangig. Bei groBen Cache-Blocken sinkt die Miss-Rate aufgrund der raumlichen 

30 Programm-Lokalitat, jedoch steigt andererseits die Bearbeitungszeit fur einen Fehlzugriff. Das Optimum der 
Cache- BIockgroBe ist von der gewahlten Cache- Architektur wie auch von der Anwendung abhangig. Die 
Cache- Blocke sind jedoch nicht die Ursache fur einen Fehlzugriff. Hierfur ist die Programmlast, der Compiler 
und das Betriebssystem verantwortlich. Dabei muB gesagt werden, daB ein bestimmter Anteil von Fehlzugriffen 
unvermeidbar ist 

35 Eine Art des Fehlzugriffes ist der sog. Verdrangungs-Miss oder Kollisions-Miss. Voraussetzung fur einen 
Verdrangungs-Miss ist, daB der Inhalt des adressierten Speichers sich bereits einmal im Cache befand. Dieser 
wurde jedoch von spater adressierten Speicherinhalten uberschrieben, so daB eine abermalige Adressierung 
zum Miss fuhrt. Die Anzahl solcher Verdrangungs-Misses ist u. a. abhangig von der Cache-GroBe und der 
Reihenfolge der einzelnen Programmteile, die zu dem Programm gebunden werden. Ein Programmteil kann 

40 dabei z. B. ein Programmodul, eine Prozedur oder eine sonstige Befehlssequenz sein, z. B. auch ein Basisblock, 
also eine lineare Befehlsfolge. Die Reihenfolge solcher Programmteile hat einen EinfluB auf die Anzahl der 
Verdrangungs-Misses. Es gibt Reihenfolgen von Programmteilen, bei denen die Anzahl der Verdrangungs-Mis- 
ses besonders klein ist 

Das der Erfindung zugrundeliegende Problem besteht darin, ein Verfahren anzugeben, mit dem eine Reihen- 

45 folge von zu einem Programm zu bindenden Programmteilen ermittelt werden kann, bei der die Laufzeit 
minimal ist Dieses Problem wird gemaB den Merkmalen des Anspruchs 1 gelost. 

Es wird soma eine gezielte Suche im Permutationsraum der moglichen Reihenfolgen der Programmteile 
durchgefuhrt. Vorausgesetzt wird dabei, daB eine Bewertungsmoglichkeit fur die Gute beziiglich der Laufzeit 
fur eine Reihenfolge der Programmteile existiert Eine solche Bewertungszahl stellt z. B. die Anzahl der benotig- 

50 ten Zyklen eines Programmlaufs dar. Diese Zahl kann z. B. aus Trace-Daten mit Hilfe eines Cache-Simulators 
gewonnen werden. Als eine weitere Moglichkeit zur Bewertung der Reihenfolge der Programmteile beziiglich 
der Laufzeit kann die Bewertung durch eine Kostenfunktion erfolgen, die den einzelnen Reihenfolgen der 
Programmteile Kosten zuordnet. 

Die Bewertung entsprechend der Kostenfunktion geht aus von der Durchfuhrung eines Trace- Verf ah rens des 

55 zu untersuchenden Programme das als Trace- Ergebnis AdreBreferenzen oder AdreBaufrufe enthalt, die sich auf 
Code-Bereiche oder Datenbereiche beziehen. Das Trace- Verfahren wird ein einziges Mai durchgefuhrt und 
kann dann immer verwendet werden. AnschlieBend wird aus dem Trace-Ergebnis ermittelt, wie oft sich je zwei 
Programmteile hochstens gegenseitig verdrangen konnen, falls sie sich im Cache iiberlappen. Auch diese 
Auswertung muB nur einmal erfolgen, da die ermittelten Werte unabhangig von der Cache-GroBe und der 

60 Reihenfolge der Programmteile des Programms sind. Fur die Vorhersage der Verdrangungs-Misses einer 
Reihenfolge von Programmteilen bei fester Cache-GroBe wird fur jedes aus dem Trace-Ergebnis ermittelte Paar 
von Programmteilen untersucht, wie groB gemessen in Cache-Blocken die Oberlappung der beteiligten Pro- 
grammteile ist. AnschlieBend fur jedes Paar von Programmteilen das Produkt zwischen der ermittelten Anzahl 
der kollidierenden Cache-Blocke und der maximalen moglichen Anzahl von Verdrangungen gebildeu Die 

65 Summe uber alle diese Produkte liefert dann ein MaB fur die Anzahl der auftretenden Verdrangungs-Misses bei 
gegebener Cache-GroBe und gegebener Reihenfolge der Programmteile eines Programms. 

Die Bestimmung der Anzahl der Verdrangungen kann z. B. mit Hilfe eines LRU-Stackspeichers (LRU «= Least 
Recently Used) erfolgen. 
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Der erste Schritt des Kostenfunktionsverfahrens besteht darin, mit einem Trace- Verf ahren das vorgegebene 
Programm zu untersuchen, um festzustellen, wann bei Ablauf des Programms Programmteile aufgerufen wer- 
den. Dies kann z. B. mit dem folgenden Algorithmic 1 # der im Pseudocode dargestellt ist, verdeutlicht werden, 
wobei hier als Programmteile Prozeduren verwendet werden. Derartige Trace- Verf ahren sind bekannt und 
5 brauchen nicht ausfuhrlich erlautert zu werden. 

Algorithmus 1 
Eingabeparameter: keine 
Ausgabeparameter: keine 
to solange (letztes Trace-Element nicht erreicht) 
hole Trace- Element 

bestimme Prozedurdeskriptor zu Trace-Element 
falls (Trace- Element « Prozeduraufruf) erhohe Prozeduraufrufzahler 
erhdhe Prozedur- Inst ruktionszahler " 
is falls (Trace-Element innerhalb Schleife) 
soiange (Trace-Element innerhalb Schleife) 
bestimme Schleifendeskriptor zu Trace-Element 

falls (Trace- Element = Prozeduraufruf) erhohe Prozeduraufrufzahler fur Schleife 
erhohe Schleifen-Instruktionszahler 
20 falls (Trace-Element = Schleif enende) erhdhe Schleifen-Iterationszahler 
bestimme nachste Schleife. 

Ein Trace- Element des Algorithmus 1 beschreibt die Verwendung eines Codebereiches, z. B. einer Prozedur, 
Schleife, Basisblock oder lnstruktion. Die einzelnen Trace-Elemente im Beispiel werden nun daraufhin unter- 
25 sucht, ob sie einen Prozeduraufruf darstellen und ob eine Schleife vorliegt. Mit Hilfe der Prozedurdeskriptoren 
wird ein Trace-Element der zugehorigen Prozedur zugeordnet, mit Schleifendeskriptoren wird gepruft, ob das 
Trace-Element von Schleifen umgeben ist Im ubrigen ist der Algorithmus t aus sich heraus verstandlich. 

Das Ergebnis des Traceverfahrens wird ausgewertet, um festzustellen, ob dynamische Konfliktmengen er- 
zeugt worden sind. Eine Auswertung erfolgt im Hinblick auf die Prozeduraufrufe und Prozedurruckspriinge des 
30 Programms. DemgemaB kann das Ergebnis des Traceverfahrens z. B. folgendermaBen dargestellt werden. 

0 1 1 0 

Dabei reprasentieren i t j Prozedurnummern, 0 < i < j < np, wobei Prozedur 0 stets die Startprozedur sei und n p 
35 die Prozedur mit der groBen Prozedurnummer. 

Anhand eines Beispieles sei dies weiter erlautert: Die Prozedurfolge sei z. B. 

(01212 1030) 

/ 

40 Die Startprozedur 0 eines Programms ruft die Prozedur 1 auf, die Prozedur 1 ruft wiederum die Prozedur 2 
auf. Wenn die Prozedur 2 abgearbeitet ist, findet ein Rucksprung zur aufrufenden Prozedur statt Prozedur 1 ruft 
jetzt Prozedur 2 nochmals auf. Danach erfolgt erneut der Rucksprung zur Prozedur 1. Terminiert Prozedur 1, 
findet ein Rucksprung zu Prozedur 0 statt. Prozedur 0 ruft schlieBIich Prozedur 3 auf und das Programm ist 
beendet mit der Startprozedur 0. 

45 Lokalitatsinformation ist im Trace-Ergebnis in Form von zeitlicher Aufrufhaufigkeit und Aufrufreihenfolge 
der Prozeduren enthalten. Dieses Trace-Ergebnis wird jetzt untersucht, ob Konfliktmengen vorliegen, die zu 
einem Verdrangungs-Miss fuhren konnen. 

Eine Konfliktmenge xi, x 2 Hegt dann vor, wenn sich aus dem zeitlichen Ablauf des Traceverfahrens die 
Moglichkeit ergibt, daB eine im Cache befindiiche Prozedur X| durch eine Prozedur X2 verdrangt werden kann 

so und umgekehrt. Betrachtet wird dazu eine Prozedur x zu einem Zeitpunkt t2 und deren zeitlich letzte Verwen- 
dung zum Zeitpunkt ti- Alle zwischen den Zeitpunkten ti und t 2 aufgerufenen Prozeduren sind Konfliktpartner 
zur Prozedur x. Das betrachtete Zeitintervall (ti, t 2 ), im weiteren Lokalitatsintervall genannt, enthalt die Proze- 
dur x genau zweimal, namlich am Anfang ti und am Ende des Intervalls t 2 . Das Lokalitatsintervall (0, 1, 2, 1, 2, 1, 0) 
des Traceergebnisses aus obigem Beispiel enthalt die Prozedur 0 am Anfang und Ende des Lokalitatsintervalls. 

55 Wie die Prozeduren aus dem Cache abgebildet werden, bzw. welche Prozeduren sich tatsachlich im Cache 
verdrangen, ist aus diesen Daten nicht ersichtlich. Wichtig ist aber, daB alle Prozeduren innerhalb des Lokalitats- 
intervalls potentiell mit der Prozedur x in Konflikt stehen konnen. Folgende Konfliktmengen lassen sich mit dem 
Lokalitatsintervall (0 12 12 1 0)bilden: 

60 (0.1): Prozedur 0 und 1 bilden eine Konfliktmenge 
(02): Prozedur 0 und 2 bilden eine Konfliktmenge 
(0. 1,2): Prozedur 0, 1 und 2 bilden eine Konfliktmenge 

Mit obigem Beispiel erhalt man folgende Lokalitatsintervalle und Konfliktmengen (angeordnet nach dem 
65 zeitlichen Auftreten der Lokalitatsintervalle): 
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m 



Lokalitatsintervatl 



Konfliktmengen 



(0 1 2 1 2 1 0 3 0): 

J L 

(0 1 2 1 2 1 0 3 0): 

J L 

(0 1 2 1 2 1 0 3 0): 

J L 

(0 1 2 1 2 1 0 3 0): 



(0 1 2 1 210 3 0): 



(0, 3, 0) 

(0, 1, 2, 1, 2, 1, 0) 

(1, 2, 1) 

(2, 1, 2) 

(1, 2, 1) 



(0, 3) 

(0, IX (0, 2), (0, 1, 2) 
(1, 2) 
(1, 2) 
(U 2) 



Die Konfliktmengen kann man Gewichten nach der Anzahl ihrer korrespondierenden Lokalitatsintervalle im 
Prozedurtrace-Ergebnis. 

In unserem Beispiel wurden somit die Konfliktmengen folgendermaBen gewichtet: 



(0,1): 
(0,2): 
(0,3): 
(1.2): 
(0.1,2): 



gew((0,l))=l 
gew((0.2))=l 
gew((0,3))=l 
gew((l,2)) = 3 
gew((0.1,2)) = 



Wird die Gewichtung der mehreiementigen Konfliktmengen genauer betrachtet, so ist erkennbar, daB deren 
Gewichtung bereits in die Gewichtung der Untermengen eingegangen ist Wird eine i-elementige Konfliktmen- 
ge gewichtet (i>2), so werden auch alle 2-bis (i— l)-elementigen Untermengen der Konfliktmengen gewichtet. 
Im obigen Beispiel ist die Gewichtung der Konfliktmenge (0, 1, 2) in der Gewichtung der Konfliktmengen (0, IX 
(0, 2) und (1, 2) enthalten. In einem ersten Ansatz genugt es also, fur i-elementige Konfliktmengen nur 2-elementi- 
ge Konfliktmengen zu betrachten. 

Die Bildung und Gewichtung der Konfliktmengen aus Lokalitatsintervallen laBt sich algorithmisch mit einem 
LRU-Stack-Speicher realisieren. Dies wird mit Hilfe der Fig. 3 bis 4 erlautert Ein LRU-Stack S n (t): =(xj . . . x n ) 
ist ein Stackspeicher LRU der Tiefe n zur Aufnahme von maximal n-Stackelementen oder Prozedurnummern 
zum Zeitpunkt t Nach Fig. 1 enthalt der Stackspeicher LRU (xi . x„) Stackelemente, wobei Xi das oberste 
Stackelement darstellt das zuletzt referenziert oder aufgerufen worden ist Wird ein Trace-Element xj bzw. die 
Prozedur Xi aufgerufen, so wird sie auf den Stack gelegt Unterscheidet sich eine Prozedurnummer xi von den 
bisherigen im Stack enthaltenen Nummern, so wird sie gemaB Fig. 3b in den Stack eingefiigt, d. h. an erster Stelle 
des Stackspeichers LRU wird xi eingefiigt, an letzter Stelle das Element x n geldscht Alle ubrigen Stackelemente 
werden um eine Position verschoben. 

Wird jeddch eine Prozedur aufgerufen, die bereits im Stackspeicher LRU enthalten ist dann wird gemaB 
Fig. 4 vorgegangen. Die Prozedurnummer sei Xi, siw wird gemaB Fig. 4b an die oberste Stelle des Stackspeichers 
LRU eingefiigt die ubrigen Stackelemente bis zum bisherigen Stackelement xj = Xk um eine Stelle verschoben. 
Somit werden die Elemente eines Lokalitatsintervalls mit dem LRU-Stackspeicher identifiziert wenn man alle . 
Elemente des Stackspeichers mit der Prozedur x\ zum Zeitpunkt t des Prozedurtraces vergleicht Ist die 
Prozedur xi zum Zeitpunkt t im LRU-Stackspeicher, so sind die Stackelemente xj,... xj — 1 Elemente des 
korrespondierenden Lokalitatsintervalls bzw. bilden Konfliktpartner zur Prozedur xi. 

Mit Hilfe der Fig. 5 wird dieses Verfahren fur das angegebene Beispiel gezeigt Es wird dabei davon ausgegan- 
gen, daB der Stackspeicher LRU n = 3 Elemente aufnehmen kann. Dies ist ausreichend, da in dem Beispiel nur 
drei verschiedene Prozeduren auBer der Startprozedur vorhanden sind. 

Fig. 5 zeigt nun fur das Beispiel zu verschiedenen Zeitpunkten den Inhalt des Stackspeichers LRU. Zu dem 
Zustand des Stackspeichers ist angegeben, welche Konfliktmengen sich ergeben und wie diese Konfliktmengen 
zu gewichten sind. Zunachst wird die Prozedur 0 in den Stackspeicher geschoben, anschlieBend die Prozedur 1 
gefolgt von der Prozedur 2. Wenn jetzt wiederum die Prozedur 1 aufgerufen wird, wie dies im Beispiel der Fall 
ist dann wird eine erste Konfliktmenge, gebildet aus den Prozedurnummern 1 und 2, festgestellt Dementspre- 
chend wird in der zugeordneten Spalte die Reihenfolge der Prozeduren 1, 2 mit 1 gewichtet Anhand der Fig. 5 
kann das weitere Vorgehen leicht erkannt werden. Auf diese Weise lassen sich die Konfliktmengen der Prozedu- 
ren in den Lokalitatsintervallen feststellen und auch eine Gewichtung durchfiihren. 

Es ist zu sehen, daB die Feststellung einer Konfliktmenge immer erfordert daB eine Prozedur mindestens 
zweimal referenziert, also adressiert worden ist Beim ersten Aufruf wird die Prozedur nur in den LRU-Stack- 
speicher aufgenommen. Beim zweiten Aufruf wird dann die Konfliktmenge festgestellt und gewichtet 

Ein Algorithmus zum Bilden und Gewichten der Konfliktmengen konnte wie Algorithmus 2 aussehen: 
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Algorithmic 2 
Eingabeparameter: keine 
Ausgabeparameter: keine 
solange (letztes Trace- Element nicht erreich t) 
5 hole Trace-Element 

Stackelement] :*= top- lrustackO 
solange (Stackelementt # letztes Stackelement) 
falls (Trace-Element = Stack- Element i ) 
Stack-EIement2: = top_ lrustackO 
io solange (Stack- Element i # Stack-Element 2 ) 

valuate conflictset (Trace-Element, Stack-Element 2 ) 
hole nachstes Stack-Element2 
sonst hole nachstes Stack-Elementi 

15 Der Algorithmus ist wiederum im Pseudocode geschrieben und damit leicht verstandlich. Es wird das Stack- 
element t und das Stackelement 2 unterschieden. Das Stackelement 1 entspricht dem Element des Traceergeb- 
nis, das mit den im Stackspeicher enthaltenen Stackelementen 2 verglichen wird. Solange das Stackelement 1 
ungleich ist zum Stackelement 2, wird die Nummer des Stackelementes 2 notiert und ebenso das Traceelement 
oder das Stackelement 1. 

20 Nachdem die Konfliktmengen festgestellt worden sind und zudem die Gewichtung durchgefuhrt worden ist, 
wird fur jedes aus dem Traceverfahren ermittelte Paar untersucht, wie groB gemessen in Cacheblocken die 
Uberlappung der beteiligten Programmteile ist. Dazu ist die CachegroBe vorgegeben. Der Verfahrensschritt 
kann anhand der Fig. 6 nachvollzogen werden. Es wird da von ausgegangen, daB die Anzahl der maximal 
moglichen Konflikte (siehe A), d. h. die gewichteten Konfliktmengen zwischen der Prozedur 1 und der Prozedur 

25 3 gleich 4 und der Prozedur 2 und Prozedur 4 gleich 6 ist. Unter der Annahme, daB die Prozeduren entsprechend 
der Figur aufeinanderfolgen und unter der Annahme, daB der AdreBraum ADR des Caches in Cacheblocke CB 
unterteilt ist, ergibt sich die Abbildung des Programms aus den Prozeduren 1 bis 4 aus der Darstellung nach 
Fig. 6. Die Prozedur 1 nimmt drei Cacheblocke ein, die Prozedur 2 vier Cacheblocke, die Prozedur 3 sechs 
Cacheblocke und die Prozedur 4 zwei Cacheblocke. Wenn der AdreBraum des Cache neun Cacheblocke enthalt, 

30 dann kann die Prozedur 1 und Prozedur 2 ganz im Cache stehen, die Prozedur 3 nur mit zwei Cacheblocken und 
die Prozedur 4 uberhaupt nicht. Das heiBt, eine Abbildung dieses Programms aus vier Prozeduren auf den 
Cachespeicher der Fig. 4 wurde ergeben, daB der Anzahl der kollidierenden Cacheblocke bei Prozedur 1 und 3 
gleich 3 ist bei Prozedur 2 und Prozedur 3 gleich 1 und bei Prozedur 2 und Prozedur 4 gleich 2 ist (siehe B). Die 
Untersuchung des Programms auf mogliche Konfliktmengen hat ergeben, daB nur zwischen der Prozedur 1 und 

35 der Prozedur 3 bzw. der Prozedur 2 und der Prozedur 4 eine Konfliktmenge besteht Die mogliche Anzahl von 
Verdrangungs-Misses kann sodann nach folgender Formel berechnet werden: 

Summe uber aller Konfliktpaare nach A multipliziert mit der Anzahl gemeinsam genutzter Cacheblocke nach B 
ergibt im Ausfuhrungsbeispiel der Fig. 4 folgenden Wert: 

40 3 x (Prozedur 1 , Prozedur 3) + 2x (Prozedur 2, Prozedur 4) = 24 

Bei einer festgelegten Folge der Prozeduren eines Programmes gemaB Fig. 4 konnen somit maximal 24 
Verdrangungs-Misses auftreten. Fur eine andere Folge der Prozeduren des Programms wurde sich dieser Wert 
andern. Somit wird mit dem Verfahren ein Weg gezeigt, wie bei einer Reihenfolge von Programmteilen, z. B. 
45 Prozeduren, die Anzahl der hochsten moglichen Verdrangungs-Misses feststellbar ist. 

Patentanspriiche 

1. Verfahren zum Binden von Programmteilen zu einem Programm, das von einem nach dem Cache-Prinzip 
so arbeitenden Rechner mit minimaler Laufzeit abgearbeitet werden kann, 

a) bei dem pseudozufallig eine Anzahl von Reihenfolgen der Programmteile erzeugt worden und diese 
Anzahl der Reihenfolgen beziiglich der Laufzeit bewertet werden und eine erste Reihenfolge von 
Programmteilen ausgewahlt wird, die das beste Bewertungsergebnis, also die geringste Laufzeit hat, 

b) bei dem mit der ersten Reihenfolge der Programmteile weitergearbeitet wird und pseudozufallig 
55 jeweils zwei Programmteile vertauscht werden und dann festgestellt wird, ob die geanderte Reihenfol- 
ge zu einem besseren Bewertungsergebnis fuhrt und fur diesen Fall mit der geanderten Reihenfolge als 
aktuelle Reihenfolge weitergearbeitet wird, sonst mit der nicht geanderten Reihenfolge der Pro- 
grammteile, 

c) und bei dem der Schritt b) so lange durchgefuhrt wird, bis ein vorgegebenes Abbruchkriterium erfullt 
60 ist. 

2. Verfahren nach Anspruch 1, bei dem trotz negativem Ergebnis der Bewertung mit der geanderten 
Reihenfolge der Programmteile weitergearbeitet wird wenn die Verschlechterung des Bewertungsergeb- 
nisses kleiner ist als eine von einem Pseudozufallszahlengenerator erzeugte Zufallszahl, die auf das Bewer- 
tungsergebnis der aktuellen Reihenfolge normiert ist. 

65 3. Verfahren nach einem der Anspriiche 1 oder 2, bei dem das Bewertungsverfahren dann beendet wird, 

wenn eine vorgegebene Anzahl von Bewertungen durchgefuhrt worden ist. 

4. Verfahren nach einem der vorhergehenden Anspruche, bei dem die Bewertung mit Hilfe eines Cache-Si- 
mulators durchgefuhrt wird 
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wir4 rfahrCn na ° h einem der Ansprfiche 1 bis 3 » bei dem die Bewertung auf folgende Weise durchgefuhrt 

a) ein Trace- Verfahren fur das Programm aus den Programmteilen wjrd durchgefuhrt, das als Trace- 

Ergebnis AdreBaufrufe zu Codebereichen oder Datenbereichen der Programmteile enthalt, 

£> « wd aus dem Trace-Ergebnis festgestellt, wie oft sich zwei Programmteile hochstens verdrangen 

c) es wird fur jeweils ein Paar von Programmteilen festgestellt, wie groB in Cache-BIdcken ausgedruckt 
und bei Abbildung des Programms auf den Cache die Oberlappung dieses Programmteilepaares ist, 

d) es wird fur jedes Paar von Programmteilen das Produkt aus der Anzahl der Verdrangungen und der 
Anzahl der kollidierenden sich uberlappenden Cache-Blocke gebildet, 

e) es wird zur Ermittlung der Anzahl der Verdrangungs-Misses des Programms und damit als Bewer- 
tungsergebnis die Summe uber alle Produkte gebildet 

6. Verfahren nach Anspruch 5, bei dem zur Bestimmung der Anzahl der Verdrangungen der Programmteile- 
wJfnH^ i der * ufr A uff 5> ! S e der Programmteile festgestellt wird, welche Programmteile zwischen zwei 
aufemanderfolgenden Aufrufen ernes Programmteiles liegen und daraus ermittelt wird, wie oft die Pro- 
grammteile eines Paares nacheinander aufgerufen werden. 

7. Verfahren nach Anspruch 6. bei dem zur Bestimmung der Anzahl der Verdrangungen ein LRU-Stack- 

* C aufrufenden Programmteile kennzeichnenden Elemente hineinge- 
schoben werden, bei dem bei Aufruf eines ersten Programmteiles aus dem Trace-Ergebnis durch Vergleich 
bStanS tC f«t« bCreitS im D LRU - Stac ^Peicher enthaltenen Programmteil vonoben 

Sil™ ?p 1i f " tge ' te " t wird ' ° b d,CSer erSte p ro^ammteil schon einmal aufgerufen worden ist und fur 
^2SSi^ Crhl i b dCS H m L ^-Stackspeicher enthaltenen ersten Proframmteiles liegenden Pro~ 
^n^hobmwM anSchheBend der erste Programmteil an die erste Stelle des LRU-Stackspei- 
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FIG6 

Anzahl maximal moglicher Eonflikte zwiscfaen 
fProzcdur X and Prozedar Y ] z^. 
IProz. lJProz. 3] = 4 1 , 
[Proz.24>roz.4] = 6 J 
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